جانشینی مقادیر مفقود و تأثیر آن بر دقت کلاسه بندی در داده کاوی پزشکی
نویسندگان
چکیده مقاله:
مقدمه: وجود مقادیر مفقود در دادههای پزشکی میتواند تمام فرآیند داده کاوی و تفسیرهای حاصل را تحت تأثیر قرار دهد. بنابراین برخورد با این مقادیر ضروری میباشد. در این پژوهش تأثیر روشهای مختلف برخورد با مقادیر مفقود بر روی دقت کلاسهبندی دادههای پزشکی مورد ارزیابی قرار گرفت. روش: در این مطالعه، تأثیر روشهای معروف جانشینی مقادیر مفقود شامل Mean/mode، Hot Deck، K-Nearest Neighbor، Maximum Possible Value، All Possible Value، Case Deletion و Regression بر روی دقت کلاسهبندی مجموعه دادههای پزشکی سرطان سینه، ناراحتی قلبی، بیماریهای پوستی، هپاتیت، تیروئید، دیابت، تومور اولیه، بیماران کبدی، سرطان ریه و بعد از جراحی، به ازای شش نرخ مختلف مقادیر مفقود، ارزیابی شد. در آزمایشها از دو کلاسهبند شبکههای عصبی و نزدیکترین k همسایه در نرم افزار داده کاوی Weka استفاده شد. برای تخمین دقت، از روش 10-Fold cross validation استفاده شد. نتایج: نتایج نشان داد برای کلاسهبند شبکههای عصبی، همه روشهای جانشینی در برابر نرخهای مختلف مقادیر مفقود، تأثیرات متفاوتی در دقت کلاسهبندی داشتند. برای کلاسهبند نزدیکترین k همسایه، روش جانشینی Mean/mode در مقایسه با سایر روشها تقریباً با افزایش نرخ مقادیر مفقود، باعث افزایش دقت کلاسهبندی گردید. در مجموع، هیچ یک از روشهای جانشینی به ازای همه نرخ-های مختلف مقادیر مفقود، همواره بیشترین دقت را نتیجه نداده و برتری نداشت. نتیجهگیری: تحلیل نتایج نشان میدهد روشهای جانشینی بررسی شده به ازای همه نرخهای مختلف از مقادیر مفقود شده لزوماً باعث بهبود دقت کلاسهبندی نگردیده و هیچ کدام از روشهای جانشینی بررسی شده بهترین روش نیستند.
منابع مشابه
داده کاوی و کاربرد آن در تصمیمگیریها
ابهامات محیطی ناشی از مدلهای نوین کسب و کار سبب تشدید پیچیدگی در تصمیمگیری، بهویژه در حوزه کسب و کار شده است. بهطوریکه بسیاری از متغیرهای تاثیرگذار ناشناخته بوده و روابط میان آنها نیز غیرخطی و پیچیده است. در چنین شرایطی دیگر نمیتوان دادهها را با ابزارهای سنتی تحلیل نموده و از آنها دانش استخراج کرد. از این روی مقاله حاضر به تشریح تکنولوژی داده کاوی در حوزه هوش محاسباتی و متدولوژی استا...
متن کاملبررسی میزان تأثیر داروهای درمان ناباروری در بیماران نابارور با استفاده از الگوریتم خوشه بندی و تکنیک های داده کاوی
Background and purpose: The rate of infertility has increased throughout the world. Data mining is a new method for analyzing information from databases. Few studies are done regarding infertility and using data mining in describing and predicting different treatment methods and factors influencing these methods. This paper proposes a model for evaluating the efficacy of different drugs in trea...
متن کاملطبقه بندی متقاضیان تسهیلات اعتباری بانکی با استفاده از داده کاوی و منطق فازی
در این پژوهش، هدف، بهره گیری از ابزارهای داده کاوی و منطق فازی برایطبقه بندی مشتریان تسهیلات اعتباری می باشد به طوریکه ابهامات و عدم قطعیت رادر خصوص طبقات مشتریان و نیز متغیرهای تاثیر گذار در رفتار آنها را پوشش دهد.روش کار بدین شکل می باشد که طبق یک فرایند استاندارد داده کاوی، داده هایمشتریان سابق بانک سامان جمع آوری و پالایش شده و سپس طبقات و متغیرهاییکه قابلیت فازی کردن داشتند، طبق نظر کارشنا...
متن کاملکاوش پویایی مشتری در طراحی بخش بندی با استفاده از روش های داده کاوی
یکی از موضوعات مهم در مسئلۀ بخشبندی پویای مشتریان، انتقال مشتریان به بخشهای مختلف در طول زمان و کشف الگوهای حاکم بر این جابهجاییها است. بر این اساس، این مقاله بر پویایی مشتری تمرکز کرده و تلاش میکند، گروههای رفتاری مشتریان و ویژگیهای غالب این گروهها و الگوهای کلی حاکم بر جابهجایی و مهاجرت مشتریان به بخشهای مختلف را در طول زمان استخراج کند. برای این کار، روش ترکیبی جدیدی مبتنی بر الگور...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
عنوان ژورنال
دوره 2 شماره 1
صفحات 24- 32
تاریخ انتشار 2015-06
با دنبال کردن یک ژورنال هنگامی که شماره جدید این ژورنال منتشر می شود به شما از طریق ایمیل اطلاع داده می شود.
کلمات کلیدی برای این مقاله ارائه نشده است
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023